#pérdida de calibración

P²-DPO: Calibración de preferencias contra alucinaciones en visión-lenguaje

Descubre cómo P²-DPO reduce alucinaciones en modelos de visión-lenguaje mediante calibración de preferencias, superando métodos con retroalimentación humana.

2026-06-03 · 2 min